查看原文
其他

自动化制作个人数据库

艺术史的图书馆 艺术史图书馆 2023-06-05
自动化制作个人数据库

Aaron Swartz一直是我的偶像,互联网应当是自由的地方。然而现在更新的这个公众号也是一个封闭的平台。

Swartz in 2012 protesting against the Stop Online Piracy Act (SOPA在兰州四年,恰好是最自由的网络,当年eMule可以让一个中国人和一个巴西人通过英语交流某张极为小众的纯器乐吉他专辑,你能看到全世界有多少人正在下载这张专辑,并续种给别人下载。后来有了Apple Music,打包了绝大数喂给你而已,唯一的慰藉是好歹还有CD。

今天网络环境越来越糟糕,限制变得越来越多,作为一个天性想要突破限制的人,不光要突破某些政府对网络的限制(国内网络就不说了,现在各个国家搞得都像局域网,德国的资源意大利不能看,美国的东西非美国本土不能查,资本的正义更是血淋淋),也要突破各种千奇百怪的限制。

多年前,我买过一个软件Wiki offline,这大概是我印象中最早会花钱买一个软件。那时候用的还是Ipod touch,手机还是黑莓的7290(怀念在黑莓键盘上打五笔的畅快)。当时用这个软件下载下来英语、意大利语和中文的维基百科,随时离线使用。

现在网络提速,维基百科自然不用离线使用(可能国内墙了之后这还挺必要),但在专业领域,拥有的个人数据库越多越专业就越好。今天要推送的就是讲如何运用自动化,来收集个人数据库的材料。在这里举一些例子,这些例子都是利用现成的软件来实现的,没有太复杂的过程,更为重要的是,要去了解哪些东西是你真正需要的,也就是在你的专业领域,什么是真正重要的,之前的书目系列可供参考。

Sitesucker爬取网页内容

Sitesucker,名字就很直接,应该也有其他类似的软件,主要作用就是下载整个网站。简单举个例子,罗马的Herziana图书馆的珍本书库http://dlib.biblhertz.it,因为是珍本书,自然已经失去了版权,那么想要全部下下来有什么办法呢?当然,一本一本点其实也不算太花时间,但是用Sitesucker可以直接爬取所有的文献,共一千多部珍本书。方法很简单,把网址输入,然后在设置中设定只爬取PDF文件。

用迅雷下载文件名按顺序的文件

迅雷是以前的下载明星,它有个功能,就是可以批量下载文件名有规律的文件。举个例子,之前推送过大型纸质词典如何进行数字化:目前最大的意大利语词典GDLI的数字化之路,当时对这个数据库有诸多批判,但批了也没有用,关键还是要使用。OK,直接的办法就是把人家的文件下下来,然后自己进行加工成私人数据库进行使用。稍微试一下可以发现这个数据库里图片都是按顺序命名的,直接按照规律用迅雷的批量化就可以了。然后用Adobe Acrobat进行OCR(Ocr 建议使用Clearscan),然后你就能得到很好的数字化后的数据,之后用Foxtrot Pro建立索引就成为了进时待命的个人数据库,比起原来的网站,高出去不知道多少。

用按键精灵将光盘数字化

意大利很多专业词典都是光盘版,而且还是那种放入光盘才能运转的。现在谁还有带光驱的电脑,再加上我是用Mac的,更是对着光盘无语。但是词典查书实在是效率低下,尤其这词典也是一千八百页的大砖头。

Il nuovo etimologico. Dizionario etimologico della lingua italiana. Con CD-ROM毕竟是花了一百多欧买的,最后想到个办法,用按键精灵把光盘中的每个查词界面存成PDF,存了17435个PDF,而且都是文本PDF,直接用Foxtrot Pro建立索引,就构成了全文数据库。我搞出这个解决方法的时候,实在太兴奋,而且这个完全是全自动的,除了我需要找一台带光驱的Windows笔记本外,感觉这是我搞数据最有成就感的一次。

商业数据库的Command+P

这是一个没有太多自动化的方法,但如果有商业化比较靠谱的数据库,比如艺术史领域的Dictionary of Art (就是现在牛津的Grove Art 数据库),最简单但也是不太自动化的方法就是把网页通过打印成PDF的方式,一个个存下来。这里重要的是通过合理设置快捷键和浏览器的自动化功能,使过程相对省力。一个思路是:一次性打开100个条目的网页,设置自动后,浏览器可以逐一将页面存成PDF,并关闭,然后开始下一个,实际就是连续按Command+P Command+P Command+W,中间设置时间差。

利用Zotero来自动下载PDF

利有用浏览器的Zotero插件,可以自动下载很多数据库的PDF文献,如Jstor,Ebsco,CNKI。这种使用的一般是文件夹下载,一点把当前页面下所有的文献都能一键传到Zotero的相应页面,且利用zotofile自动命名。举个例子:如果研究艺术史期刊(因为材料容易在国内找全),常用的在Jstor上都有,而像Rivista d'Arte这样的专业艺术史期刊,比如20世纪早期Giovanni Poggi挖掘的大量档案材料全是在这里发表的,这样的期刊不常见,如果不是研究需求,基本上也不会去查阅,但从史学史的角度,这样的期刊已经成为了重要的研究对象,且材料相对易得,如果知道这份重要的期刊Ebsco是有数字资源的,用Zotero插件自动化就可以批量存储到Zotero里。国外的期刊研究一直受限于数字资源难以获得,因为数据的正当性需求,必须跟出版社合作,除了高昂的授权费用外,往往出版社会提供在指定电脑上甚至需要专人监督使用的光盘,只能在固定时间查阅,这大概就是资本的力量。以前有学者利用Sci-hub指下载某些期刊文献(这个下载的方法似乎已经被取消了),然后进行科学研究。

人工扫描后进行数字化

除了用软件外,其实最有用的工具是人工扫描,尤其是在中国。扫描的关键在于全彩、dpi 300的状态下,扫描速度还相对较快。当然最直接的办法就是扔给打印店的,花钱买时间。国内扫艺术史的书籍就是彩扫太贵,实际上,只要机器好,彩扫跟黑白扫描完全没有差别,个人可以淘宝买Mx -M264N或者相关型号的,意大利这边都用这个,比较好用。各个专业应该好好利用一下国内相对廉价的扫描,现在Internet Archive的书很多都扫自中国,明显就是利用了这个优势(外文的书)。当然中文有读秀在,倒不必重复劳动。

书目作为艺术史的方法系列:

        一、瓦尔堡的卡片盒子:对Bibliography的创造性使用和建造

        二、牛津文献书目和个人研究方向:数字时代如何构建研究框架

        三、书目作为艺术史研究的方法:艺术史联合书目检索系统Kubikat

        四、数字人文时代的目录学:用Zotero保存Kubikat的检索条目

          五、集中建立初步的书目结构:艺术家研究文献的检索和整理



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存